【精彩论文】基于函数挖掘的能源信息物理系统数据安全风险识别算法
基于函数挖掘的能源信息物理系统数据安全风险识别算法
邓松1, 蔡清媛1, 高昆仑2,3, 张建堂1, 饶玮2,3, 朱力鹏2,3
(1. 南京邮电大学 先进技术研究院,江苏 南京 210023; 2. 国网智能电网研究院有限公司,北京 102209; 3. 电力系统人工智能(国网智能电网研究院有限公司)国家电网公司联合实验室,北京 102209)
引文信息
邓松, 蔡清媛, 高昆仑, 等. 基于函数挖掘的能源信息物理系统数据安全风险识别算法[J]. 中国电力, 2021, 54(3): 23-30, 37.
DENG Song, CAI Qingyuan, GAO Kunlun, et al. Data security risk recognition algorithm for energy cyber physics system based on function mining[J]. Electric Power, 2021, 54(3): 23-30, 37.
引言
1 基于粗糙集的数据安全风险要素特征选择算法
(2)定义2。设能源互联网数据安全风险决策表 S=<U,C∪D,V,f> ,其中 C∪D=R ,对于 ∀P⊆R, 且x,y∈U ,当且仅当对于 ∀r∈P , f(x,r)=f(y,r) 时,称能源互联网数据安全风险要素及风险等级集合 U 中的对象 x 和 y 是不可分辨的,记为 IND(P)={(x,y)∈ U|∀r∈P,f(x,r)=f(y,r)} 或 U/R 。(3)定义3。设能源互联网数据安全风险决策表 S=<U,C∪D,V,f> ,若 U/C=U/(C−ci) ,则称影响能源互联网数据安全风险要素集的条件属性集合中某一要素 ci 可约简。整个FSDSRF-RS算法描述如下。
2 基于混合GEP的能源信息物理系统数据安全风险识别算法
2.1 基于小生境的GEP种群生成策略
在自然界中,小生境(Niche)是指特征相似的种群聚集在一起,并在同类中交配繁衍后代,在基因表达式编程算法中,各类遗传操作是基于一定概率随机的,这种方式在算法初始阶段的确保持了种群的多样性,但在进化到一定代数后,大量个体的适应度值都会集中在某一个局域,从而后代会造成近亲繁殖,大大降低种群的多样性。因此,本文将小生境技术运用到基因表达式编程中,提出基于小生境的GEP种群生成策略(population generation for GEP based on niche, PG-NGEP)。其基本思想是:首先计算GEP初始种群中所有个体的适应度值,从中选择前K个最大适应度值的个体组成小生境;然后在小生境的所有个体中两两计算海明距离,并基于该距离动态调整适应度值较小的个体,使得该个体能被遗传到下一代的概率大大降低;最后对所有调整后的个体适应度进行排序,产生下一代种群,循环往复,直到算法结束。2.2 基于种群密度的变异概率自适应调整策略
变异概率的选择会直接影响GEP算法的收敛性。变异概率过小,GEP算法不易产生新的个体,种群多样性会受到很大影响;变异概率过大,GEP算法就变为纯粹的随机搜索算法。因此如何选择一个适当的变异概率值对于GEP挖掘数据安全风险识别函数模型至关重要。从生物进化的角度来看,种群中个体越密集,则进化出新物种的概率就越小。因此,本文提出基于种群密度的变异概率自适应调整策略(adaptive adjustment of mutation probability based on population density, AAMP-PD)。设当前种群的最大适应度值为 fmax ,平均适应度值为 favg ,AAMP-PD算法中,变异概率Pm的调整策略可表示为式中:2≤α≤5 ;0<β<0.5 ;0.5<χ<1 。
当 χfmax<favg 时,表明当前种群中个体较为集中,容易陷入局部最优,通过增加变异概率 Pm 来使得个体更加多样化;否则,则表明当前种群中个体较为分散,通过减小变异概率 Pm 来保持个体多样化,避免陷入局部最优。
2.3 DSRR-HGEP针对能源信息物理融合系统中的数据安全风险识别的目标是识别能源生产、传输、交易及消费过程中信息物理系统自身及交互所面临的数据威胁。为了全局掌握能源信息物理系统中多维度数据的安全态势,本文提出混合GEP的能源信息物理系统数据安全风险识别算法(DSRR-HGEP),利用基因表达式编程算法来挖掘针对能源信息物理系统数据安全的风险要素与风险等级之间的复杂函数关系模型,定量识别能源信息物理系统下数据安全风险等级。
为了更好理解GEP挖掘能源信息物理系统下数据安全风险要素与风险等级之间的函数关系,首先给出如下定义。
定义4:设函数集 F 包含基本初等数学函数,终端集 T={d1,d2,⋯,dm} ,则称 Dg=⟨F,T|h,t⟩ 为能源信息物理系统数据安全风险识别基因。其中 di,i∈[1,m] 表示影响能源信息物理系统下数据安全风险要素,h、t分别表示为上述基因的头长和尾长,二者之间的关系为
式中:n 表示函数集 F 中初等函数所包含的最大运算操作目数。例如,初等函数为 +,−,∗,/ 等时, n=2 ;初等函数为 sin,cos,log,exp 等时, n=1 。
一个或多个 Dg 构成能源信息物理系统数据安全风险识别染色体。
整个算法描述如下所示。
3 仿真实验与结果分析
表1 电网业务系统数据安全风险要素集
Table 1 Data security risk element set of power grid business system
根据表1给出的数据安全风险要素集,结合网络安全日志文件,并通过量化后生成相应的仿真实验数据集。该数据集共包括30条实验数据,其中21个条件特征,1个风险等级特征,数据安全风险分为低、中、高3个等级。整个实验数据集分为训练数据集(前20条数据)和测试数据集(后10条数据)。表2给出实验数据集描述。
表2 实验数据集描述
Table 2 Description of experimental dataset
(1)实验1:针对表2中给出的实验数据集,表3给出FSDSRF-RS、主成分分析法(principal component analysis, PCA)、互信息法(mutual information,MI)、随机森林(random forest, RF)以及方差过滤(variance threshold, VR)进行特征选择前后条件属性个数变化。表4显示上述3种特征选择算法最后的结果。
表3 基于5种算法的特征选择前后条件属性个数变化
Table 3 The number of conditional attributes before and after feature selection based on FSDSRF-RS, PCA, MI, RF and VR
表4 实验数据集描述Table 4 Description of experimental dataset
图2 特征选择前后最优适应度值与最大适应度值差值比较Fig.2 Comparison of the difference between the optimal fitness value and the maximum fitness value before and after feature selection
从图2可以看出,针对表2所示的训练数据集,与特征选择前相比,特征选择后基于DSRR-HGEP算法进行数据完全风险识别函数挖掘所得到的最优适应度值与最大适应度值差值最大为64.92%。这表明针对高维数据安全风险数据集,在不改变现有该数据集风险决策能力的前提下,特征选择大大提高数据完全风险识别函数挖掘的成功率。同时与传统的GEP算法相比,DSRR-HGEP算法中所采用的小生境种群生成以及动态自适应变异概率动态调整策略也大大加速了算法收敛。与此同时,图3显示,针对表2所示的训练数据集,特征选择大大降低了数据完全风险识别函数挖掘的平均耗时,5次相同参数的实验中平均耗时最大下降80.33%。
图3 特征选择前后数据安全风险识别函数挖掘得到最优解的耗时比较
Fig.3 Time-consuming comparison of data security risk identification function mining to obtain the optimal solution before and after feature selection
同时为了验证DSRR-HGEP算法比传统GEP算法(traditional GEP, TGEP)的性能要优越,本文还比较2种算法运行5次的收敛速度。设 fmax 为对应当前样本数据下TGEP和DSRR-HGEP算法的最大适应度值,N为TGEP和DSRR-HGEP算法的最大运行代数,P为TGEP和DSRR-HGEP算法运行到最优解 fopt 时所对应的运行代数,则
图4 GEP算法和DSRR-HGEP算法的收敛速度比较
Fig.4 Comparison of convergence speed between traditional GEP and DSRR-HGEP
图5反映了特征选择前后测试数据真实值与模型值之间的拟合程度。从图5可以看出,特征选择前测试数据真实值与模型值之间最大的误差为0.81,最小为0。而特征选择后真实值与模型值之间最大的误差为0.49,最小为0.0008。由此可以看出该模型具有较高的预测精度。
图5 特征选择前后测试数据真实值与模型值比较
Fig.5 Comparison between real value and model value for testing data before and after feature selection
4 结语
(责任编辑 李博)
作者介绍
邓松(1980—),男,博士,副研究员,从事电网信息安全与防护,电力大数据及数据挖掘研究,E-mail:ds16090311@163.com;★
蔡清媛(1997—),女,硕士研究生,从事电网信息安全与防护、电力大数据及数据挖掘研究,E-mail:dmccxysc@163.com;★
高昆仑(1972—),男,博士,高级工程师(教授级),从事电力系统自动化与信息化技术研究,E-mail:gkl@geiri.sgcc.com.cn.往期回顾
审核:方彤
根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。